EMNLP 2021 | ST-ToD:小样本场景下的任务型对话预训练
©PaperWeekly 原创 · 作者 | 褚维芜
单位 | 北京邮电大学研究生
研究方向 | 自然语言处理
论文标题:
论文链接:
代码链接:
https://github.com/MiFei/ST-ToD
1.2 主要工作
本文提出了一种自训练(Self-training)方法,该方法利用无标注的对话数据来改进基于预训练模型的 ToD 系统在少样本学习(few-shot learning)场景下的性能,主要贡献如下:
本文是首次在小样本学习场景下研究自训练方法对现有的 ToD 预训练模型的影响。 本文提出了一种自训练方法,该方法迭代地为无标注数据中模型预测的置信度最高的数据打上标签,这些伪标注数据可以用于训练更强的 Student 模型。此外,本文提出了一种新的文本增强技术(GradAug),即在 MLM 中只 mask 非关键字符,这种方式保留句子的语义信息,从而更好地训练 Student 模型。 本文在 ToD 中的四个下游任务(意图分类、对话状态跟踪、对话行为预测和回复选择)上进行了实验,实验结果表明,本文所提出的自训练方法可以继续提高目前最先进的预训练模型(BERT、ToD-BERT)的性能。
下游任务介绍
意图分类(Intent classification,IC)
3.1 自训练算法
初始化 模型 (算法1 第1行)利用少量的标注数据(数据集的 1% or 10%)进行训练, 模型进行 warm up。 利用 模型对无标注的数据 的标签进行预测(算法 1 第 4-8 行)对于每一个输入数据 , 模型会对其标签进行预测 。本文将预测分数 设定为该预测的置信度分数 。注意:当预测 仅包含一个标签时(如:意图分类、回复选择), 为该输入数据 的预测标签对应的预测分数;当预测 包含多个标签时(如:对话状态追踪、对话动作预测), 为输入数据 的预测标签对应的预测分数的平均值。 根据置信度分数 从 选择 个实例进行标注(算法 1 第 9-10 行) 本文选择的方式是在置信度分数中选择最高的 个实例,并利用 对这些实例进行标注。这些标注的实例会从 转移到 。 对已标注数据 进行文本增强(GradAug),得到 (算法 1 第 11 行) 利用 来训练 模型(算法 1 第 12 行)本文在每次迭代中均需要重新初始化 模型以避免在多次训练迭代中过度拟合 中的初始和早期数据。一般而言, 应该具有与 同等的或更高的能力,才可以随着 中数据量不断地增加来学习知识。本文将 设置为与 相同的大小,并且实验证明了可以在不增加模型容量的情况下得到性能的提升。 用训练得到的 模型来覆盖原来的 模型,进行下一轮的训练(算法 1 第 13 行)
3.2 文本增强技术(GradAug)
计算 (算法2 第3行) 对于输入 的嵌入矩阵为 和标签 ,每一个词对标签 的重要性是通过显著性映射(saliency map) 计算: 通过将 对 进行微分(计算梯度)来得到文本中第 个词对标签 的重要性。然而原始梯度可能包含噪音,且可能在局部剧烈波动。因此,本文计算第 个词的平滑显著性度量(smooth saliency measure) 为: 其中高斯噪声 。第 个单词被 mask 的概率 与 成反比,即该单词对标签 越重要,则其被 mask 的概率就越小: 最后,利用 中元素的和对其进行标准化得到 mask 概率 。 根据 来对 中 15% 的词进行 mask得到 (算法 2 第 5 行) 用 MLM 来对 进行重构,得到原本文 的扩充文本 (算法 2 第 6 行)根据每个 [MASK] 的预测概率,从 10 个最可能的词中抽取 1 个词来进行重构。由于基于梯度的 mask 方案避免了替换对 的语义很重要的词,所以可以认为 和 的标签 是一样的。
实验
4.1 数据集、评测指标、Baseline
总结
参考文献
[1] Henderson M , I Vulić, Gerz D , et al. Training Neural Response Selection for Task-Oriented Dialogue Systems[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.
[2] Wu C S, Hoi S C H, Socher R, et al. TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 917-929.
特别鸣谢
感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧